其他
机器学习算法应用中常用技巧-1
1. 取样
数据量很大的时候,想要先选取少量数据来观察一下细节。
2. Split数据
用 sklearn.cross_validation.train_test_split
将数据分为 train
和 test 集。
sklearn:http://scikit-learn.org/stable/modules/cross_validation.html#stratified-shuffle-split
分离出 Features & Label
有时候原始数据并不指出谁是label,自己判断
3. 用 train 来训练模型,用 test 来检验
用 Decision Tree 来做个例子
sklearn:http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html
4. 判断 feature 间的关联程度
5. scaling
当数据不符合正态分布的时候,需要做 scaling 的处理。常用的方法是取log。
scaling前后对比图:
6. Outliers
方法之一是 Tukey 方法,小于 Q1 – (1.5 × IQR) 或者大于 Q3 + (1.5 × IQR) 就被看作是outlier。
先把各个 feature 的 outlier 列出来并排好序:
再配合 boxplot 观察,到底哪些 outlier 需要被移除:
本文转自 CSDN原文:http://blog.csdn.net/u014365862/article/details/54890040
❈
全球人工智能近期经典文章推荐
Deep mind:给人工智能一个工作存储器,将会发生什么?
机器学习算法之决策树用法详解(使用Scikit-learn模块)
反向传播的意义及c++实现
匹兹堡赌场的赌神——扑克牌机器人背后的理论
6亿用户的《今日头条》和它的黑科技武器
干货|如何利用 TensorFlow 创建第一个神经网络
深度学习里数学之--方差--美妙而富有韵味
干获|详解深度学习框架——TensorFlow
Google|“自动机器学习”取得重大突破:机器设计的机器学习软件已达AI专家设计水平!
【南大教授】提出“超深度学习”欲颠覆“深度学习”,你怎么看?
❈